Käesolevas õppematerjalis on esitatud andmestiku puhastamise, ettevalmistamise ja kirjeldava analüüsu läbiviimise skeem andmestiku flights.csv näitel. Antud materjalis lahendatud ülesanded vastavad Seminaritöö 1 ülesannetele.
Andmete eeltöötluse etapil toimub andmete edasiseks analüüsiks ettevalmistamine: andmete lugemine, tunnuste tüüpide kontrollimine, puhastamine (vigaste väärtuste kontroll ja eemaldamine, duplikaatide eemaldamine, puuduvate väärtuste kontroll ja asendamine või eemaldamine, mittesobivate tunnuste kustutamine) ja ka tunnuste teisendamine ning uute tunnuste moodustamine.
flight failist Loeme andmeid R-i failist flights.csv, andmestik flights.csv üle 40nda rea. Üle rea lugemiseks kasutame seq() funktsiooni.
flight <- read.csv("flights.csv", header=TRUE, stringsAsFactors = FALSE)
flight <- flight[seq(1, nrow(flight), by = 40), ]
Et saada andmestikust ülevaadet väljastame andmestiku tabelina. Selleks kasutame funktsiooni datatable() paketist “DT” ja library(“DT”).
library(DT)
datatable(flight, options=list(scrollx=1, pageLenght=10, searching=FALSE, scroller=TRUE, scrolly=200))